19 SwipeGANSpace: 潜在空間の関心次元探索によるスワイプ操作に基づく嗜好画像生成
中島柚斗(東大),楊明哲(東大),馬場雪乃(東大)
https://scrapbox.io/files/6565891452d814001c7956cb.png
論文:
要旨:
スマートフォンを用いてユーザの好みの画像(嗜好画像)を生成する新しい方法を提案する。ユーザはスワイプ操作によって画像の好き嫌いを表現する。その情報を基に、システムはユーザの好みを推定し、新しい画像を生成する。提案手法では、PCA分析と多腕バンディットアルゴリズムを利用して、GANの潜在空間を効率的に探索する。実験の結果、提案手法はベースラインと比較して、効率的に嗜好画像を生成できることがわかった。また、ユーザの嗜好は画像の比較によって動的に変化することなどを明らかにした。
採録時コメント:
GANによる嗜好画像生成におけるユーザの嗜好を,スワイプ操作を用いて効率的に行う手法を提案し,その手法に沿った生成アルゴリズムとして多腕バンディットアルゴリズムを適用することで,シンプルなベイズ最適化手法よりもよりユーザの嗜好性を反映した画像を生成できることを示している論文です.
参加者メモ・コメント:
Like/Dislikeの二値のdirect ratingフィードバックなんですね
なぜ主成分分析を選んだのかが気になります。(詳しくないので単純な疑問です)Tatsuya NAGASAWA.icon
某SNSのようなダブルタップでいいねという機能もありかな
「弁護士らしい画像」、CHIに出すとポリコレ的に査読で突っ込まれそう? GANや人が持つバイアスに関する議論みたいなものに踏み込んだら面白そう
「弁護士として好まれる画像」とかに言い換えれば回避できるんだろうか…政治家に関してはこうした選好に関する研究があった気がします(あごは広い方が好まれる、など)nishiyama.icon
顔にした時点で、ポリコレセーフなお題を作るのが難しいように感じます。被験者としても「自分のバイアスを披露してください」といわれているようで気分がよくないと思う人がいるかもしれない。研究テーマ的に顔を使うのが必須ではないような気もするのでそのレベルで避けるのが望ましいような。マッチングアプリのように、で顔にしているのでしょうけど。あれ聞き逃したかな。西田健志.icon
(ここでいう)マッチングアプリって何?とかいう恥ずかしい質問をさせてください…くらもといたる.icon
彼氏と彼女が出会うためのアレのこと,でいいんですかね? それスワイプで切られたり切ったりするんだ…くらもといたる.icon
そうですw
ありがとうございます.なんかおじさん感覚ではこわいです…wくらもといたる.icon
作りたい画像が何となくなもの,だとある程度イメージにあえばいいから用途としてこういう2値でサクサクつくるのがあっているのかもですかね.ayumiohnishi.icon
ゲームのモブキャラデザインするのとかによさそう(ある程度沿ってないといけないけど適当でよくて数が必要という意味では)くらもといたる.icon
それいいかもですね!ayumiohnishi.icon
寝っ転びながらすることじゃないけど…wくらもといたる.icon
_(:3 」∠ )_
嗜好画像は「最適」である必要はない? ←「最適」性ってすっっっっごく検証が難しそうですよね…くらもといたる.icon
一回画像を生成すると、そのデータは次画像を作成する時に用いられるのか
プロンプトから画像を生成する場合と比較して、提案手法はよりかんたんに画像を生成できるか気になりました👀
出力画像の品質も、どのくらい違うのか気になります
気になる👀 imamura.icon
スワイプ操作による二値分類の結果を使って探索範囲/次元を絞るというアプローチは、敵対的生成というアーキテクチャを自然に選択するんでしょうか?nishiyama.icon
(いま品質的に見劣りするとされている)GANではなく、たとえば(潜在)拡散モデルにおける潜在空間の探索においても同じことができないでしょうか?
というのを疑問に思っていたのですが、徐々に嗜好画像に変化していく(させていく)というのがポイントなんですね。これは拡散モデルだと難しいかもですねnishiyama.icon
拡散モデルで生成した画像をGAN Inversionして潜在空間探索による微調整をすることは考えられると思います
あっ聞き逃した…,展望で言っていた,「眼鏡いらない」とか「眼鏡いる」みたいに,ユーザには直感的な(計算機にとっては主成分かどうかわからない)軸をこの手法の拡張で実現可能だと考えているのかどうか,気になってました..くらもといたる.icon
出来上がってからの微調整の方が言語で難しくてこういうのが使えるかもというのは面白いと思いましたayumiohnishi.icon
(拡散モデルに入れる)最初のコマンドのイメージを獲得するのに使えるといいかもしれないと思いましたimamura.icon
GANでやって、GPT-4Vでコマンドにして、補正して、再度拡散モデルみたいなことができるのかもしれない?
参考ですが、最近画像生成結果をGUIで調整できるPikaというライブラリが出ましたね→ Pika 記憶違いでした…nishiyama.icon 著者へ:こちらの研究も少し関連があるかと思いました(ご存知でしたらすみません)
ベイズ最適化が高次元空間の探索に弱いということを動機としており、また生成モデルの主成分分析による次元圧縮のアプローチをとっている点、脳内にあるイメージや主観的な好みをもとに画像を生成する点などが共通点だと思いました。
リファレンス画像にできるだけ近い画像を発見するなど、より定量的な評価が可能な実験を行って欲しいと思いました(特に新規アルゴリズムの提案が一つの貢献であるため、純粋なアルゴリズムの評価結果もみてみたいです。)
発表で言及していた実験では最適性の議論がしにくいと思いました
人間に対してテキストでプロンプトして生成してもらった場合と、text-to-image とかを比較しても面白いかなと思いました hiromu.icon
text で specify した要素についてはよく反映されているが、明示的な指定がない要素は嗜好が反映される or 多様性が出るとかになると意義が見えそうな気がします
質疑応答:
ユーザ実験だと何回くらいの画像生成で収束しましたか?
違う生成方法と比較するとどうなりますか?
皆様口頭でのたくさんのご質問ありがとうございました!!!ayumiohnishi.icon